روشی نوین برای بهبود عملکرد یادگیری Q با افزایش تعداد بهروز رسانی مقادیر Q برپایه عمل متضاد

روشی نوین برای بهبود عملکرد یادگیری Q با افزایش تعداد بهروز رسانی مقادیر Q برپایه عمل متضاد 4 3 2 مریم پویان امین موسوی شهرام گلزاری احمد حاتم دانشجوی کارشناسی ارشد گروه برق و کامپیوتر دانشگاه هرمزگان بندرعباس pouyan.student@hormozgan.ac.ir گروه برق و کامپیوتر 2 mousavi@hormozgan.ac.ir 3 golzari@hormozgan.ac.ir 4 hatam@hormozgan.ac.ir 4 3 2 استادیار دانشگاه هرمزگان بندرعباس چکیده الگوریتم یادگیری Q یکی از بهترین الگوریتمهای یادگیری مستقل از مدل میباشد. هدف از یادگیری یافتن تخمینی از تابع ارزش - عمل بهینه میباشد که مقادیر Q نامیده میشود. یکی از عمده ترین مشکالت روش یادگیری Q در برخورد با مسائل دنیای واقعیی زیاد شدن تعداد حالتهای محیط و در نتیجه کم شدن سرعت همگرایی است زیرا برای تضمین همگرایی یادگیری تمامی زوجهای حالت - عمل باید بینهایت بار بازدید شود. در این نوشتار از روش ترکیبی بر پایه مفاهیم عمل متضاد استفاده شیده اسیت. مفیاهیم تضاد در یادگیری تقویتی منجر به بهبود سرعت همگرایی میشود زیرا در آن بهروز رسانی مقادیر Q برای عمل و عمل متضاد متناظر آن در یک مرحله و بصورت همزمان انجام میپذیرد. یادگیری Q برای افزایش سرعت روش ارائه شده همراه با یافتن بهترین اثر متقابل بیین اکتسیاو و اکتشیاف در همگرایی یادگیری استفاده شده است. تکنیک ارائه شده برای مسئله Grid world شیبیه سیازی شده است. نتایج به دست آمده بهبود در فرایند یادگیری را نشان میدهد. کلمات کلیدی یادگیری تقویتی یادگیری Q عمل متضاد اکتساو اکتشاف 226

- مقدمه امروزه بسیاری از مسائل دنیای واقعی به وسیلهی تکنیکهای اتخاذ شدده در ماشینهای هوشمند بررسی و حل میشوند. یادگیری تقویتی شاخهای از دانش هوش مصنوعی است که به بررسی حوزهی یدادگیری از رریدت تعامدل و بده شیوه آزمون و خطا میپردازد. بنابراین اگر عملی منجر به بهبود وضعیت شدود تمایل به انجام آن تقویت میشود و امکان انجام آن در صدور عددم بهبدود تضعیف میشود. برای حل مسائل یادگیری تقویتی سه راه حل کلدی برنامده نویسدی پویدا روش مونت کارلو و روش تفاضل زمانی مطرح است []. روش تفاضل زمانی از اصلیترین روشهایی است کده در یدادگیری تقدویتی مدورد اسدتفاده قدرار میگیرد و ترکیبی از روشهای برنامه نویسی پویا و مونت کارلو میباشد. یادگیری Q الگوریتم کنترلی تفاضل زمانی off-policy است که بهرور همزمان در محیط کاوش انجام میدهد و سیاست بهینه را یاد میگیرد. این الگوریتم به دلیل آسان بودن پیاده سازی و تئوری خوب توسعه یافته به صور گستردهای مورد استفاده قرار گرفته است. در روش یادگیری Q افزایش تعداد حالتهای محیط به عنوان چالشی مطرح میباشد []. زیرا افزایش تعداد حالتها باعث کاهش سرعت همگرایی و درنتیجه افزایش هزینه در یادگیری عامل میشود. بنابراین ارائه روشهایی که باعث افزایش سرعت یادگیری عامل میشوند ضروری مینماید. تاکنون روشهای گوناگونی برای بهبود یادگیری Q ارائه شده است. عمدهی این روشها به پنج دسته اصلی تقسیم میشوند که هر کدام تالش بر بهبود یادگیری باتوجه به محدودیتهای موجود در یادگیری Q دارند. ساختار کلی این پژوهشها در پنج دسته زیر شرح داده شده است. استراتژی بهروز رسانی مقادیر Q: در پژوهش[ 2] الگدوریتم Q(λ) بده عنوان یک الگوریتم چندگامه افزایشی پیشنهاد شده اسدت. در پدژوهش [3] برای دستیابی به مسیر بهینه در محیط ناشناخته تعداد بهروز رسانی مقادیر Q پس از انجام یک عمل افزایش داده شده است. در این روش زمانی که یک عمل توسط عامل انجام میگیرد زنجیرهای از حالتها که در رول فرایند جستجو تشکیل شده و شامل وضدعیت جداری تدا نقطده شروع میباشد برای بهروز رسانی درنظر گرفته میشود. در پژوهشهای نظیر [5,4] یادگیری Q مبتنی بدر تضداد معرفدی شدده اسدت. محدور اصلی این پژوهشها افزایش تعداد بهروز رسدانی تدابا ارزش مدیباشدد بدین گونه که اگر عامل ارزش عمل مخالف را نیز بداند به جدای یدک مقدار میتواند دو مقدار از تابا ارزش را بهردور همزمدان بدهروز رسدانی کند. کداهش زمدان اکتشدا و افدزایش سدرعت همگرایدی بده عندوان دستاوردهای این روش بیان شده است. استراتژی کاهش فضای حالت: یکی از محدودیتهای اسدتفاده از روش یادگیری تقویتی همان رور که قدبال ذکدر شدد در کداربردهدای واقعدی رویارویی با فضای حالت بسیار بزرگ میباشد که باعث مدیشدود زمدان یادگیری روالنی شود و حافظه مورد انتظار برای ذخیره جددول Q زیداد شود. اکثر تحقیقا نظیر [6-8] در زمینه کداهش حداال یدا تجزیده وظایف به زیر وظایف کوچکتر و یا تعمیم تجربدههدای عامدل یدادگیری انجام شده است. استراتژی استفاده از دانش پیشین و مقداردهی اولیه Q: اگرچه استفاده از دانش اولیه باعث افزایش سرعت یادگیری تقویتی گدزارش شدده اسدت [9]. اما اگر این دانش حاوی ارالعا اشتباه باشدد دارای اردرا سدو مانند جلوگیری از رسیدن به سیاست بهینه میشود که منجر به کم شدن سرعت یادگیری میشود []. در [] روشی را با استفاده از کنتدرل بر روی دانش پیشین ارائه کردهاند که تاریر بد را سرکوب کندد. در ایدن روش با درنظر گرفتن فاکتور فراموشی برای عامل باعث بهبود یادگیری شدند. در[ ] یادگیری Q مبتنی بر شبکه عصبی را پیشدنهاد دادهاندد. که در آن برای مقداردهی اولیده مقدادیر Q از شدبکه عصدبی اسدتفاده کردهاند. نتایج بیان شده نشدان دهنددهی بهبدود عملکدرد الگدوریتم بدا استفاده از مقداردهی اولیه اکتشافی میباشد. استراتژی شکلدهی تابا پاداش: برای تسریا فرایند یادگیری روشهایی همچون یادگیری Q بیزی یدادگیری Q کنددرو و یدادگیری Q نسدبی برای دستیابی به پاداش بیشتر مورد بررسی قرار گرفته است[ 2 3]. در [4] برای رراحی تدابا تقویدت از تدابا پداداش پیوسدته و تخمدینزن پیشرفت برای سرعت بخشیدن به یادگیری بهره گرفته شده است. استراتژی انتخاب عمل: در[ 5 ] پیدا کردن سیاست بهینه در یادگیریQ به جستجوی یک راهحل در مسائل بهینه سدازی ترکیبدی تبددیل شدده است. در این روش از معیار Metropolis الگوریتم شبیه سازی تبرید به منظور مصالحه بین اکتشا و بهره برداری استفاده شده است. در [] اکتشا برپایه تفاضل ارزش برای تعادل بین اکتشا و بهره برداری در یادگیری تقویتی درنظر گرفتده شدده اسدت. در[ ] اکتشدا بدر پایده تفاضل ارزش که با انتخاب عمل سافتمکس ترکید شدده بده عندوان سیاست تطبیقی در یادگیری تفاضل زمانی پیشنهاد شده است. در این پژوهش از ترکی استراتژیهای بدهروز رسدانی مقدادیر Q و انتخداب عمل استفاده شده است. با الهام از الگوریتم یدادگیری Q مبتندی بدر تضداد و تغییر قسمت بهروز رسانی مقادیر Q یک الگوریتم جدید پیشنهاد میشود. کده در آن به منظور رسیدن به رویه بهینه از اکتشا بر پایه تفاضل ارزش ترکی شده با رویه سافتمکس استفاده شده است. مشکل موجود مقدادیر Q گمدراه کننده که در پژوهش پیشین [5] وجود داشته است و باعث سدردرگمی عامدل بوده است در این کار بررر شده است. سازماندهی ساختار مقاله به اینصور است که در بخش 2 ابتدا یادگیریQ به صور مختصر شرح داده شده است. سپس مروری بر پژوهش پیشدین در زمینه یادگیریQ مبتنی بر تضاد شده است. در بخش 3 روش کار توضیح داده شده استکه درآن الگوریتم پیشنهادی بیان میشود. ارزیابی و نتایج آزمایشها در بخش 4 آورده شده است. در نهایت نتیجهگیری در بخش 5 آورده شده است. 2- یادگیری Q و یادگیری Q مبتنی بر تضاد --2 یادگیری Q یادگیری Q اولین بار توسط واتکینز معرفی شد[ 8 ]. یادگیری Q تک گامی به این صور تعریف میشود که عامل در هر تکرار یکی از مقادیر Q را برای هر جفت حالت عمل مطابت رابطه )( بهروز رسانی میکند: Q( s, a) Q( s, a) [ r max a ' Q( s ', a ') Q( s, a)] ) ( 227

نمادهایی که برای محاسبه یک گام یادگیری Q در فرمول) ( اسدتفاده شدده است به صور زیر تعریف میشوند که این نمادها در [] استفاده شدهاند. s= حالت فعلی =a عمل ˈs= حالت بعدی ˈa= عمل حالت بعدی r= پاداش فوری α= پارامتر نرخ یادگیری γ= فاکتور تخفیف یا ضری تنزیل a و عمل s ارزش حالت - عمل برای حالت = Q(s, (a فاکتور گاما میزان آیندهنگری عامل را بیان میکند که نشان دهندهی ارربخشی ارزش پاداشهای آینده در روند تصمیمگیری فعلی است. افزایش مقدار این پارامتر باعث میشود که در روند تصمیمگیری به پاداشهای آینده اهمیت بیشتری داده شود و ارزش حالت بعدی تاریر بیشتری نسبت به ارزش حالت فعلی داشته باشد. بنابراین زمانیکه انتخاب عمل بهدرستی صور نگیرد موج کاهش سرعت همگرایی میشود. اگر مقدار این پارامتر کوچک در نظر گرفته شود تاریر پاداشهای آینده کمتر شده و همگرایی را تحت تاریر قرار میدهد چون از گسترش پاداش حالت هد جلوگیری میشود. فاکتور آلفا برای تاریر خطای اختال زمانی در هنگام بهروز رسانی ارزش فعلی حالت- عمل استفاده میشود که سرعت تغییر مقدار Q در بهروز رسانی را مشخص میکند. افزایش فاکتور آلفا باعث میشود که بخش بیشتری از مقدار بهروز رسانی بهوسیلهی ارزش حالت فعلی تقویت شود. انتخاب مقادیر کوچکتر برای آلفا مزایایی چون کنترل تاریر منفی یک بهروز رسانی نادرست را دارا است. برای پیاده سازی این روش یک جدول Q درنظر گرفته میشود که هر خانه جدول به یک جفت حالت- عمل تعلت دارد. یادگیری در این الگوریتم بدین صور است که در هر دوره عامل در یک حالت تصادفی قرار داده میشود و تا رسیدن به حالت پایانی مقادیر جدول برای هر جفت حالت- عمل بر اساس رابطه )2( بهروز میشود. شکل) ( این فرایند را نشان میدهد. r s0 S S2 a0 a a2 r2 r3 Terminal State شکل) (: یک دوره یادگیری همانرور که در شکل) ( نشان داده شده است با این فرض که عامل در حالت s 0 قرار دارد عمل a 0 را ربت سیاست مشتت شده از مقادیر Q انتخاب نموده و پاداش r را از محیط دریافت میکند. حالت بعدی محیط s را مشاهده میکند و تا رسیدن به حالت پایانی این روند را تکرار میکند. 2-2- یادگیریQ مبتنی بر تضاد زمان مورد نیاز برای همگرایی روش Q متناس با سایز جدول Q است. با افزایش سایز جدول Q زمان پر کردن آن نیز افزایش مییابد. الگوریتمهای مبتنی بر تضاد دارای این مزیت میباشند که با افزایش تعداد بهروز رسانی مقادیر Q باعث افزایش سرعت یادگیری میشوند. زیرا عامل با انجام یک عمل عمل متضاد متناظر را نیز درنظر میگیرد و بهصور همزمان میتواند دو مقدار از جدول Q را پر کند. برای یافتن درجه تضاد میتوان از رابطه) 2 ( استفاده نمود. معیاری است که تضاد بین دو عمل a و a 2 را مشخص میکند و درجه تضاد نامیده میشود. η تشابه حالت نامگذاری شده که بر اساس کالستر حالت یا ربت رابطه )3( اندازهگیری میشود[ 5 ]. (s,s ) i j k k Q(s,s ) Q(s,s ) i k j k max Q(s,s ) Q(s,s ) i k j k ) 3( در پژوهش[ 5 ] سه الگوریتم بر مبنای تضاد مشتت شده از یادگیری Q معرفی شده که عبارتند از OQL2 OQL و.OQL3 ایده اصلی این الگوریتمها این است که اگر عامل به ازای یک عمل پاداش دریافت کند برای عمل متضاد متناظر با آن یک جریمه دریافت میکند. اولین نسخه الگوریتم )OQL( بدین صور است که در هر گام عامل با انجام عملa و دریافت پاداش r برای عمل متضاد متناظر مجازا دریافت میکند. بهروز رسانی برای مقادیر حالت عمل و حالت- عمل متضاد مطابت رابطه )4( انجام میگیرد: Q ( s, a) Q(s,a) [r max a ' Q ( s ', a ') Q ( s, a)] )4( Q(s,a) Q(s,a) [r max a '' Q ( s '', a '') Q( s, a)] در دومین نسخه الگوریتم) OQL2 ( نرخ یادگیری برای بهروز رسانی مقادیر ارزش حالت- عمل متضاد به صور تابا کاهشی مطابت فرمول )5( بهروز میشود: i ) 5( n E که در آن i نشان دهندهی تکرار و n E تعداد اپیزود میباشد[ 5 ]. بهروز رسانی برای مقادیر حالت- عمل انجام میگیرد سپس نرخ یادگیری ربت رابطده )5( بهروز میشود و مقدار تابا ارزش برای جفت حالت- عمل متضداد نیدز بدهروز میشود. بنابراین همانند رابطه) 6 ( داریم: Q( s, a) Q(s,a) [r max a' Q( s ', a') Q( s, a)] بهروز رسانی نرخ یادگیری ربت رابطه) 5 ( Q(s,a) Q(s,a) [r max a'' Q ( s '', a '') Q ( s, a )] ) 6( در سومین نسخه الگوریتم) OQL3 ( برای تعداد محدودی از اپیزودها در آغاز یادگیری مثال 4 تعداد کل اپیزودها بهروز رسانی اضافی انجام میگیرد. در پژوهش[ 5 ] با فرض اینکه موقعیت هد شناخته شده است تابا پاداش اینگونه تعریف شده که زمانیکه عامل یک عمل را انجام میدهد اگر فاصله اقلیدسی بین عامل و هد کاهش یابد یا تغییر نکند عامل پاداش + دریافت میکند و زمانیکه فاصله ذکر شده افزایش یابد پاداش - دریافت مینماید. پاداش به رور ضمنی رفتار بهینه را برای عامل توصیف میکند به همین دلیل به کارگیری غلط آن میتواند باعث گمراه نمودن عامل شود. در شکل) 2 ( نمایی از یک محیط نشان داده شده است که نشان دهندهی این امر میباشد. فرض شده که عامل در موقعیت x قرار دارد و عمل a را انجام میدهد و به حالت 'x میرود چون فاصله تا هد کاهش یافته بنابراین پاداش + دریافت میکند و همزمان برای عمل مخالف مجازا - دریافت میکند زیرا فاصله تا هد برای انتساب پاداش و جریمه برای عامل استفاده شده است. ایجاد مقادیر اشتباه Q باعث گمراهی عامل در انتخاب عمل میباشد و منجر به شکست در رسیدن به هد میشود. ( ) ( ( ) ( ) ) ) 2( 228

شکل) (: مثالی از مقادیر Q اشتباه. موقعیت هدف با G مشخص شده است. عامل در موقعیت x قرار دارد عمل a را انجام میدهد به حالت 'x منتقل میشود پاداش دریافت میکند و همزمان برای عمل متضاد مجازات میشود. بنابراین مقادیر Q این حالتها اشتباه میباشد. 3- روش کار --3 بهروز رسانی مقادیرQ در روش پیشنهادی مقادیر Q بهروز رسانی میشود. برای هر جفت حالت- عمل مطابت فرمول )( Q(s, a) Q(s, a) + α [r + γ max aˈq(sˈ, ˈ) + (-γ)min a Q(sˈ, ) - Q(s, a)] ) ( شرط الزم برای همگرایی مقادیرQها این است که +t max aˈq(sˈ, aˈ)=q و Qˈt+ min a Q(sˈ, ( a = دارای مقادیر رابتی باشند یا به عبار دیگر مقادیرQها با +t Q و Qˈt+ تغییر کند بنابراین داریم: Q t = (-α) Q t + α ( + γ Q t+ + (- γ)qˈt+) :گام اول γ)qˈt+) Q t = (-α) 2 Q t + (-α) α( + γ Q t+ + (- :گام دوم + α ( + γ Q t+ + (- γ)qˈt+)... γ)qˈt+) Q t = (-α) n Q t +(-α) n- α( + γ Q t+ + (- :گامnام + (-α) n-2 α( + γ Q t+ + (- γ)qˈt+) + + α( + γ Q t+ + (- γ) Qˈt+) = (-α) n Q t + α( + γ Q t+ + (- γ)qˈt+) [(-α) n- +(-α) n-2 + +] = (-α) n Q t + ( + γ Q t+ + (- γ)qˈt+))-(-α) n ( چون 0 < α < 0 < -α < (-α) n 0, Q t = + γ Q t+ + (- γ) Qˈt+ مقدارQ با بهروز رسانی کافی همگرا میشود. در روش پیشنهادی عامل مقادیر Q را برای هر عمل و عمل متضاد متناظر با آن بهروز رسانی میکند. عمل متضاد دارای جهتی مخالف جهت عمل اصلی میباشد. بهعنوان مثال هنگامیکه عمل اصلی دارای جهت رو به باال است جهت عمل متضاد متناظر با آن رو به پایین است. روش پیشنهادی نیز بطور همزمان دو مقدار از جدول Q را برای مقادیر حالت- عمل و حالت - عمل متضاد بهروز رسانی میکند. تابا پاداش به صور ماتریسی از حالت - عمل در نظر گرفته شده است. با فرض اینکه عامل در جهت دلخواه باشد ارزش حالت- عمل متضاد با دریافت پاداش جفت حالت عمل متضاد برای عمل با کمترین ارزش ضری باالتری نسبت به عملی که بیشترین ارزش در حالت بعدی را دارد درنظر میگیرد. در روش پیشنهادی دو مقدار Q مطابت )8( بهروز رسانی میشود. Q(s, a) Q(s, a) + α[r(s, a) + γ max aˈ Q(sˈ, aˈ) + (- γ) min Q(sˈ, ) - Q(s, a)] Q(s, ) Q(s, ) + α (s, ) + γ min aˈ Q(sˈ, aˈ) + (- γ) m x Q(sˈ, ) - Q(s, )] ) 8( 2-3- استراتژی انتخاو عمل رفتار عامل در هر زمان توسط رویه عمل تعریف میشود که به بیانی دیگر حالت را به عمل نگاشت میکند. اپسیلون- گریدی و سافتمکس دو رویه معرو هستند که اغل مورد استفاده قرار میگیرند []. در رویه اپسیلون- گریدی در هر گام زمانی عمل تصادفی با احتمال رابت ɛ 0 و عمل با باالترین ارزش با احتمال ɛ- انتخاب میشود که این نوع انتخاب عمل به عنوان انتخاب حریصانه شناخته میشود. اگرچه رویه اپسیلون- گریدی به دفعا مورد استفاده قرار میگیرد یکی از اشکالهای این رویه درنظر گرفتن احتمال مساوی برای انتخاب عملهای غیر بهینه است. در رویه سافتمکس احتمال انتخاب عمل ربت فرمول )9( درنظر گرفته میشود: Pa ( ) a j A ( s ) Q ( s, a) e Q ( s, a j ) e ) 9( که در آن ضری دما میباشد که مقدار آن مثبت است []. اکتشا بر پایه تفاضل ارزش که با انتخاب عمل سافتمکس ترکی میشود بهعنوان یک رویه تطبیقی برای روشهای یادگیری تفاضل زمانی مطرح شده است که آن را VDBE-Softmax 2 نامیدهاند. تفاو توزیا بولتزمن مقادیر قبل و بعد از یادگیری ربت رابطه )( محاسبه میشود [7]. f ( s, a, ) Qt ( s, a) Qt ( s, a) e e Qt ( s, a) Qt ( s, a) Qt ( s, a) Qt ( s, a) e e e e e e.. )( که σ رابت مثبت میباشد. از مزایای این δ روش این است که عملهای اکتشافی در موقعیتهایی که مقادیر ارزش در فرایند یادگیری دارای نوسان است و دانش در مورد محیط به قطعیت نرسیده است انتخاب میشود. در آغاز فرایند یادگیری انتظار میرود عامل بیشتر اکتشا انجام دهد و زمانیکه عامل به شناختی از محیط برسد مقدار اکتشا کاهش یابد. چنین رفتار انطباقی با استفاده از محاسبه احتمال اکتشا وابسته به حالت بعد از هر گام یادگیری مانند )( محاسبه میشود. ɛ t+ (s)= δ. f(s t, a t, σ) + (-δ). ɛ t (s) )( میباشد که در آن A(s) تعداد عملها میباشد. (s) ɛ برای تمامی حالتها در آغاز با یک مقدار دهی شده است[ 7 ]. 229

در روش پیشنهاد شده برای محاسبه احتمال اکتشا وابسته به حالت 4- آزمایشها و ارزیابی فرمول) 2 ( میانگینی از (σ f(s,,a و (σ f(s,, درنظر گرفته شده است. به منظور مقایسه روش پیشنهاد شده (OQL-VDBE( با روشهای تضاد قبلی[ 5 ] روش [7] QL-VDBE-softmax و روش یادگیریQ استاندارد دو Grid world نشان داده شده در شکل) 3 ( استفاده شده است. انتخاب عمل نیز بوسیله رویه سافتمکس انجام شده است. عامل در هر دوره بهصور تصادفی در یکی از خانههای سفید رنگ نشان داده شده در شکل) 3 ( یادگیری را آغاز میکند. در هر قدم عامل میتواند در یکی از هشت جهت که شامل: شمال شمال شرق شرق جنوب شرق جنوب جنوب غرب غرب و شمال غرب است باشد. عامل مسیر را برای رسیدن به خانه هد که با G مشخص شده پیمایش میکند. هد از یادگیری این است که عامل بتواند با پرداخت کمترین هزینه به خانه هد برسد. فرض شده که هر حرکت پاداشی به اندازه - دارد. حرکتهایی که باعث برخورد عامل به مانا یا دیوار میشود محل عامل را تغییر نمیدهد و پاداش - را در پی دارد. زمانیکه عامل به خانه هد برسد پاداش + دریافت میکند. برای پیاده سازی پژوهش پیشین مبتنی بر تضاد از تابا پاداش ذکر شده در پژوهش [5] استفاده شده است. به منظور مقایسه روشها نرخ موفقیت میانگین درصد حالتهای بهینه و متوسط تعداد گامهای عامل برای رسیدن به هد به عنوان معیارهای اندازهگیری درنظر گرفته شده است. نرخ موفقیت مطابت) 3 ( محاسبه میشود. n s ) 3( epoch max_episode که n s تعداد دفعاتی است که عامل توانسته به خانه هد برسد. مخرج تعداد دفعاتی که روشها برای هر محیط اجرا شده است را نشان میدهد که شامل تعداد تکرار در تعداد دورهها میباشد. هر دوره یادگیری زمانیکه عامل به خانه هد برسد یا به حداکثر تعداد حرکا درنظر گرفته شده برای هر محیط برسد پایان مییابد. پارامترهای استفاده شده برای تمامی پیاده سازیها در جدول) ( آورده شده است. درصد نرخ موفقیت در جدول) 2 ( نشان داده شده است. جدول ) ) : مقداردهی پارامترها پارامتر حداکثر تعداد گام در محیط حداکثر تعداد گام در محیط )ب( تعداد دوره تعداد تکرار دما )( δ σ اندازه 3 4 5././25 روش ها جدول) 2 (: درصد نرخ موفقیت محیط )ب( محیط α= / 8 α= / 3 α= / α= / 8 α= / 3 α= / γ= / 9 γ= / 8 γ= / γ= / 9 γ= / 8 γ= / 96 /32 83 / 3 6 / 82 99 / 4 98 / 89 / 95 QL 9 /2 93 / 26 9 / 85 99 / 53 98 / 93 96 / 6 QL_VDBE /23 4 / 5 2 / 28 / 3 / 24 / 8 OQL /93 / 5 / 6 3 / 65 / 88 / 36 OQL2 4 /45 9 / / 4 6 / 6 6 / 26 23 / 2 OQL3 9 /63 9 / 94 / 6 99 / 6 99 / 62 98 / 6 OQL-VDBE e f ( s, a, ) e.. r ( s, a) max Q ( s ', a ') ( ) min Q ( s ', a") Q ( s, a) a' a'' e f ( s, a, ) e. 2. 2 r ( s, a) min Q ( s ', a ') ( ) max Q ( s ', a") Q ( s, a) 2 a' a'' t ( s ).( f ( s, a, ) f ( s, a, )) ( ). t ( s ) 2 )2( الگوریتم اصلی این مقاله در ادامه با عنوان الگوریتم )( ارائه شده است. الگوریتم) (: OQL-VDBE. Initialize Q(s, a) arbitrarily 2. Initialize e(s) arbitrarily, e.g. ( s ) = for all s 3. Repeat (for each episode): 4. Initialize s 5. Repeat (for each step of episode): 6. ξ rand(0..) 7. if ξ < ɛ(s) then 8. softm x(a(s)) 9. else 0. gm x bϵa(s) Q(s, b). endif 2. Take action a, observe reward r and next state s' 3. Determine opposite action a 4. a * argmax i ϵ A(sˈ) Q(sˈ, i) 5. * argmin j ϵ A(sˈ) Q(sˈ, j) 6. = (s, ) + γq(sˈ, a * ) + (-γ)q(sˈ, * ) - Q(s,a) 7. 2 = (s, ) + γq(sˈ, * ) + (-γ)q(sˈ, * ) - Q(s, ) 8. 3 = (s, ) + γq(sˈ, * ) + (-γ)q(sˈ, * ) - Q(s,a) 9. 4 = (s, ) + γq(sˈ, * ) + (-γ)q(sˈ, * ) - Q(s, ) 20. if Q(s, ) < Q(sˈ, a * ) 2. Q(s, a) = Q(s, ) + α. 22. Q(s, ) = Q(s, ) + α. 2 23. ( 24. else 25. Q(s, ) = Q(s, ) + α. 3 2. Q(s, ) = Q(s, ) + α. 4 27. ( ) ) 28. endif 29. s sˈ 30. until s is terminal state 3. until a desired number of episode terminated 230

و) عمل ها ) آ) ) شکل) 3 (: نمایی از دو محیط شبیهسازی. موقعیت شروع یکی از خانههای سفید رنگ میباشد و موقعیت هدف با G مشیخص شیده اسیت. عامیل میتواند در هشت جهت حرکت کند. شکل)آ(: محیط 24 24 شکل)و(: محیط 44 44. درصد نرخ موفقیت آمده در جدول )2( نشان میدهد که این ندرخ بدرای روش پیشنهادی )OQL-VDBE( دارای مقادیر بیشتری مدیباشدد. اگرچده کارهای مبتنی بر تضاد قبلی OQL( OQL2 و )OQL3 در محیطهدای بدون مانا به خوبی جواب میدهد و باعث افزایش سرعت یادگیری مدیشدود اما در محیطهایی که مانا وجود دارد بهدلیل وجود مقادیر Q اشتباه منجر بده شکست در رسیدن به هد میشود. درصد حالتهای بهینه با درنظر گرفتن نسبت بین تعداد گامهای مسدیر بهینه به تعداد گامهای موجود در مسیر هر روش اندازهگیری مدیشدود [5]. به منظور مقایسه روشها درصد حالتهای بهینه و تعداد گامهدای عامدل در رسیدن به هد در هر دوره یادگیری ربت شدده اسدت. پدس از پایدان یدافتن دورهها فرایند یادگیری برای تمدامی روشهدا 5 مرتبده تکدرار شدده اسدت. میانگین درصد بهینه و متوسط تعداد گامها گزارش شده است. ارزیابی روش پیشدنهاد شدده بدا پدژوهشهدای پیشدین در شدکلهدای )4-9( نشان داده شده است. درصد حالتهای بهینه در شکلهای) 4 6 8 ( و متوسط تعداد گامهای عامل تا رسیدن به هد در شکلهای )5 9( برای دو محیط نشان داده شده است. در شکلهای ذکر شده زیرنویس)آ( نتایج به دست آمده برای محیط را نشان میدهد و زیرنویس )ب( متناظر با نتایج به دست آمده در محیط )ب( میباشد. شکل 4 آ) ( نتایج فرایند یادگیری را بدا پارامترهدای / =α /=γ و تعداد دوره 4 برای شش روش نشان میدهد. میانگین درصد حالت بهینه در روش پیشنهاد شده دارای مقادیر باالتری نسبت به دیگدر روشهدا مدیباشدد. دلیل این بهبود این است که عامل مسیر کوتاهتری را برای رسیدن به هدد پیمایش میکند. روش پیشنهاد شدده (OQL_VDBE) چدون در هدر گدام یادگیری بطور همزمان دو مقدار از مقادیر Q را بهروز میکند نسبت به روش QL_VDBE برتری دارد. روش QL_VDBE نیز بهدلیل بهبدود سیاسدت انتخاب عمل از روش QL بهتر عمل مدیکندد. روشهدای مبتندی بدر تضداد (OQL,OQL2,OQL3) به دلیل انتساب پاداشهای اشتباه باعدث ورود مقادیر اشتباه به جددول Q مدیشدوند. بندابراین عامدل در بسدیاری از مدوارد نمیتواند به خانه هد برسد و برای به پایان رساندن فرایند یادگیری در هر دوره حداکثر تعداد گامهای درنظر گرفته شده را ری میکند. شکل 4 ب) ( فرایند یادگیری را برای محیط )ب( نشان میدهد. همانرور که دیده میشود درصد حالت بهینه نسبت به محیط کمتر شده است چدون محیط )ب( دارای تعداد حالتهای بیشتری نسبت به محیط میباشد. شکل 5 آ) ) و 5 ب) ) متوسط تعداد گامهای عامل تا هد را برای دو محیط نشان میدهد. روش ارائه شده نسبت به روشهای دیگر بهتر عمل میکند. همانگونه که دیده میشود روش پیشنهادی با تعداد گامهای کمتری به خانده هد میرسد. همین بهبود حاصل شده منجر بده افدزایش سدرعت یدادگیری میشود. برای کارایی الگدوریتم آزمدایشهدا بدا پارامترهدای =α /3 /8=γ و =α /8 /9=γ تکرار شده است. نتایج در شدکلهدای )6-9( آورده شدده است. با افزایش این پارامترها فرایند یادگیری نیز بهبود یافته است. همانرور که در شکلهای) 4 6 8 ( بدرای دو محدیط مشداهده مدیشدود درصد حالتهای بهینه در روش پیشنهاد شده در این مقاله به ردور میدانگین مطابت جدول) 3 ( نسبت به روشهدای QL و QL_VDBE افدزایش یافتده است. که دلیل این افزایش همانگونه که در بخش 3 اشاره شده اسدت مدوارد مانند: افزایش تعداد بهروز رسانی و بهبود استراتژی انتخداب عمدل مدیباشدد. همانرور که قبال ذکر شد درصد حالت بهینده نسدبت بدین تعدداد گدامهدای کوتاهترین مسیر موجود به تعداد گامهای موجود در مسیر هر روش میباشدد. سه روش ذکر شده در پژوهش[ 5 ] در بسیاری از موارد نمیتوانند به خانه هد برسند. بنابراین به دلیل عملکرد ضعیف در جدول) 3 ( از نشان دادن نتدایج آن خودداری شده است. برای مثال در شکلهدای )4 6 8( عملکدرد ضدعیف ایدن روشها قابل مشاهده است. روش جدول) 3 (: مقایسهی نرخ بهبود محیط)ب ) محیط )آ ) α= / 8 α= / 3 α= / α= / 8 α= / 3 α= / γ= / 9 γ= / 8 γ= / γ= / 9 γ= / 8 γ= / /4 / 48 2 / 23 42 / 39 24 / 38 9 / 24 QL 8 /82 6 / 48 2 / 4 32 / 6 6 / 58 / 4 QL_VDBE 5- نتیجه گیری در مقاله ارائه شده الگوریتمی برای افزایش سرعت یادگیری Q مطرح شده است. در الگوریتم ارائه شده از روشی ترکیبی بر پایه افزایش تعداد بهروز رسانی مقادیر Q و بهبود انتخاب عمل استفاده شده است. ارزیابی روش ارائه شده به وسیله مقداردهی گوناگون پارامترهای تاریرگذار در دو محیط انجام گرفته شد. نتایج به دست آمده حاکی بر بهبود فرایند یادگیری و تسریا در آن میباشد. با توجه به اینکه یادگیری تقویتی دارای روشهای مختلفی میباشد و در این مقاله یادگیری Q مد نظر گرفته شده است الگوریتم ارائه شده میتواند در روشهای دیگر یادگیری تقویتی به عنوان کار آتی مطرح باشد. 23

و) α=. / شکل) 4 (: مقایسه عملکرد یادگیری با و 7/. =γ. تعداد دورهها به میانگین درصد حالتهای بهینه در دو محیط و شکل) 5 (: مقایسه عملکرد یادگیری با /.=α ) و 7/. =γ. تعداد دورهها به متوسط تعداد گامهای عامل تا هدف در دو محیط و شکل) 6 (: مقایسه عملکرد یادگیری با 3/.=α و 4/. =γ. تعداد دورهها به میانگین درصد حالتهای بهینه در دو محیط و شکل) 7 (: مقایسه عملکرد یادگیری با 3/.=α و 4/. =γ. تعداد دورهها به متوسط تعداد گامهای عامل تا هدف در دو محیط و 232

شکل) 4 (: مقایسه عملکرد یادگیری با 4/.=α و 9/. =γ. تعداد دورهها به میانگین درصد حالتهای بهینه در دو محیط و شکل) 9 (: مقایسه عملکرد یادگیری با 4/.=α و 9/. =γ. تعداد دورهها به متوسط تعداد گامهای عامل تا هدف در دو محیط و [] Song, Y., Li, Y. B., Li, C. H., and Zhang, G. F. "An effcient initialization approach of Q-learning for mobile robots". International Journal of Control, Automation and Systems, 0:66 72, 202. [2] Pandey, P., Pandey, D., and Kumar, S. "Reinforcement learning by comparing immediate reward", IJCSIS, vol. 8, no. 5, pp. -5, August 200. [3] Manju, S., and Punithavalli, M. "An analysis of Q- learning algorithms with strategies of reward function", IJCSE, vol. 3, no. 2, pp. 84-820, February 20. [4] Mataric, M. J. "Reward functions for accelerated learning, " Proc. of the International Conference on Machine Learning, pp. 8-89, 994. [5] Guo, M., Liu, Y., and Malec, J. "A new Q-learning algorithm based on the metropolis criterion. " IEEE Trans. Syst. Man Cybern. B, 34(5):240-243, 2004. [6] Tokic, M. "Adaptive ε-greedy exploration in reinforcement learning based on value differences". In: LNCS, vol. 6359, pp. 203 20. Springer, Heidelberg. 200. [7] Tokic, M. and Palm, G. "Value-difference based exploration: Adaptive exploration between epsilon-greedy and softmax. " In KI 20: Advances in Artificial Intelligence, 335-346. Springer Berlin / Heidelberg. 20. [8] Watkins, C. J. C. H., Learning from Delayed Rewards, PhD thesis, Cambridge University, Cambridge, England, 989. زیرنویسها 2 Opposite Q-learning Value Difference Based Exploration - Softmax مراجع [] Sutton, R.S., Barto A.G., Reinforcement learning: An Introduction, MIT Press, Cambridge, MA, 998. [2] Peng, J., Williams, R. J. "Incremental multi-step Q- learning." Machine Learning, 22(-3), 283-290, 996. [3] Ma, X., Xu, Y., Sun, G. Q., Deng, L. X., and Li, Y. B. "State-chain sequential feedback reinforcement learning for path planning of autonomous mobile robots." Journal of Zhejiang University Science C, 4(3), 67-78, 203. [4] Tizhoosh, H. R. "Reinforcement learning based on actions and opposite actions." In International Conference on Artificial Intelligence and Machine Learning (pp. 94-98), 2005. [5] Tizhoosh, H. R. "Opposition-based reinforcement learning", Journal of Advanced Computational Intelligence and Intelligent Informatics 0 (4), 578 585, 2006. [6] Senda, K., Mano, S., and Fujii, S. "A Reinforcement Learning Accelerated by State Space Reduction". SICE Annual Conf., pp:992-997, 2003. [7] Hamagami, T., and Hirata, H. "An Adjustment Method of the Number of States of Q-Learning Segmenting State Space Adaptively". Proc. IEEE Int. Conf. on Systems, Man and Cybernetics, pp:3062-3067, 2003. [8] Lampton, A., and Valasek, J. "Multiresolution State-Space Discretization Method for Q-Learning. " Proc. American Control Conf., p.646-65, 2009. [9] Ribeiro, C. H. "Embedding a priori knowledge in reinforcement learning", Journal of Intelligent and Robotic Systems 2, pp:5 7. 998. [0] Terashima, K., and Murata, J. "A study on Use of Prior Information for Acceleration of Reinforcement Learning", SICE Annual Conf. 20, pp. 537-543, 20. 233